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高 性 能 微 处 理 器 物理 设计 方法 研究 


1 引言 


微 处 理 器 是 计算 机 系统 最 关键 的 部 分 , 其 设计 制造 也 是 计算 机 技术 的 核心 。 目 前 微 处 理 
器 已 经 渗透 到 了 人 类 生活 的 各 个 领域 , 开局 了 信息 时 代 的 大 门 。 同 时 微 处 理 器 也 广泛 应 用 于 
传统 行业 ， 影 响 着 这 些 行业 的 核心 竞争 力 。 


四 十 年 前 ， 第 一 颗 商用 微 处 理 器 4004 问世 。 其 频率 仅 有 108KHz， 集 成 了 2300 个 晶体 
管 。 而 今天 SandyBridge-E 处 理 器 集成 了 22.7 亿 个 晶体 管 ， 频 率 最 高 可 达 3.9GHz。 可 以 说 
成 电路 的 发 展 速度 ， 没 有 其 它 的 行业 可 以 比拟 。 


回首 我 们 龙芯 处 理 器 的 设计 之 路 ，2011 年 是 值得 纪念 的 一 年 。 十 年 前 ， 龙 芯 一 号 的 结 
构 设 计 在 FPGA 平台 上 成 功 验证 ， 随 后 诞生 的 龙芯 一 号 , 用 事实 回答 了 “中 国 能 不 能 自主 做 
出 微 处 理 器 ”的 问题 。 而 十 年 后 的 今天 集成 了 近 6 亿 晶 体 管 的 龙芯 三 号 处 理 器 成 功 运行 在 
1GHz， 其 发 展 速度 丝毫 不 亚 于 “摩尔 定律 ” 


微 处 理性 能 及 集成 度 的 飞速 发 展 ， 背 后 的 推动 力 是 什么 ? 其 一 是 系统 结构 的 持续 发 展 : 
ed 从 复杂 指令 集 到 精简 指令 集 ， 从 单 发 射 静态 流水 线 到 多 发 射 动态 流水 线 ， 从 单 核 长 流水 到 多 
加 核 短 流 水 等 等 一 系列 技术 的 进步 极 大 地 推进 了 处 理 器 性 能 提高 ; 其 二 是 测试 、 验 证 技术 的 不 
断 进 步 : 从 简单 的 功能 测试 到 复杂 的 可 测 性 设计 , 现代 集成 电路 随机 验证 和 等 价 性 验证 的 飞 
速 发 展 也 都 有 效 地 推动 了 微 处 理 器 设计 的 不 断 进 步 。 当 然 最 本 质 的 推动 力 还 是 来 自 日 新 月 异 
S< 的 半导体 制造 技术 ， 集 中 体现 在 晶体 管 特征 尺寸 不 断 缩小 的 能 力 ， 这 也 是 摩尔 定律 的 本 质 。 

每 十 八 个 月 翻 一 番 的 芯片 集成 度 以 及 随 之 而 来 的 功 耗 、 成 品 率 问题 向 与 其 紧密 相关 的 物 
= 理 设计 方法 学 提出 了 越 来 越 严 重 的 挑战 ， 也 促进 了 物理 设计 方法 的 不 断 变革 。 这 其 中 性 能 、 
© 功 耗 无 疑 是 最 重要 的 主题 。 


滤 玻 


2 ”高 性 能 设计 方法 学 


自从 90 纳米 制造 工艺 问世 之 后 ， 集 成 电路 设计 进入 了 纳米 时 代 。 纳 米 时 代 芯 片 集成 度 
还 在 以 摩尔 定律 惊人 的 发 展 着 , 按 比例 缩小 技术 似乎 并 没有 放 慢 的 迹象 , 一 切 看 上 去 都 那么 
然 。 然 而 当 我 们 把 目光 放 在 芯片 物理 实现 上 ， 情 景 并 非 如 此 。 芯 片 设 计 制 造 正 遇 到 越 来 越 
严重 的 挑战 : 逐渐 逼近 物理 极限 的 晶体 管 和 互 连 尺 寸 使 得 在 片 波动 影响 越 来 越 大 ; 功 耗 密度 
的 飞速 增长 和 有 限 的 自然 散热 能 力 之 间 的 矛盾 越 来 越 突出 ; 不 断 缩 小 的 器 件 延 迟 和 不 断 增 加 
的 互 连 延 迟 ， 使 得 传统 上 以 器 件 为 中 心 的 设计 方法 学 面临 着 巨大 的 挑战 ; 同时 随 着 互 连 耦 合 
电容 成 为 总 电容 的 主导 因素 , 如何 防止 因此 引起 的 串扰 效应 依然 困扰 着 人 们 ; 可 制造 性 设计 
/成 品 率 导 向 设计 "问题 正 从 幕后 走 到 芯片 设计 者 面前 。 这 些 挑战 正 深刻 地 影响 着 物理 设计 方 
法 学 的 变革 。 


1 Design for Manufacturability DFM 
”Design For Yield, DFY 
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:设计 方法 研究 


2.1 全 定制 和 ASIC 物理 设计 方法 


物理 设计 方法 学 有 两 个 主要 上 


的 分 支 ， 全 定制 (Full Custom) 和 ASIC3。? 


缺点 ， 在 现代 大 规模 集成 电路 中 都 有 广泛 的 应 用 。 


2.1.1 全 定制 的 设计 方法 


全 定制 是 最 早 被 采用 的 物理 
设计 方法 ， 它 也 是 早期 电路 设计 
唯一 的 方法 。 它 的 主要 思想 是 根 


据 结构 设计 要 求 进行 手工 电路 设 
计 、 手 工 版 图 设计 。 其 基本 特征 

体 管 是 基本 设计 元 素 ， 每 
一 个 晶体 管 都 独立 可 调 。 电 路 设 
计 是 全 定制 设计 最 重要 的 环节 ， 
它 不 仅 要 实现 电路 的 功能 ， 还 和 
大 程度 上 决定 了 电路 的 速度 和 功 
耗 。 在 进行 电路 设计 的 同时 还 要 
考虑 版 图 设计 。 版 图 设计 就 是 根 
据 9 结果 把 电路 转换 成 
版 图 


路 设计 的 结果 

， 把 每 个 晶体 管 和 晶体 管 间 
的 连接 转换 成 图 形 。 版 图 设计 完 
成 后 还 要 进行 验证 检查 工作 : 版 
图 对 原理 图 检查 (Layout Versus 
Schematic， 简 称 LVS) 和 设计 规 
则 检查 (Design Rule Check， 简 
称 DRC)。 全 定制 的 优点 是 对 工 
有 具 依赖 少 ， 可 以 采用 多 种 电路 风 
格 ， 设 计 空 间 大 。 I 设计 通 
常 只 要 版 图 编辑 检查 工具 、 寄 生 


已 
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图 1.ALPHA 全 和 定 代 


参数 提取 及 电路 仿真 工具 。 由 


So 


静态 、 动 态 电路 ,改变 晶体 
面积 。 限 制 电 路 性 能 的 主要 


有 工作 都 是 版 图 


级 好 


[操作 ， 因 


于 没有 
管 宽 长 


因素 不 是 自动 化 工具 ， 而 是 制造 工艺 和 设计 者 的 创造 性 。 
此 全 


子 设 计 自 动 化 工具 的 限制 
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剖 设 计 的 一 个 问题 是 工作 


EE 子 设计 
所 是 验 训 


自 
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程 设计 人 员 。 当 然 随 着 
全 定制 设计 的 另 一 个 难 


动 化 技术 的 不 断 进 步 , 全 鲜 


大 , 同时 需要 有 经 验 的 了 
判 设计 的 自动 化 程度 也 在 提高 。 


定 
这 包括 两 个 方面 : 逻辑 功能 验 i 


态 的 逻辑 等 价 性 检查 和 
察 输出 波形 是 否 正 确 。 而 有 限 的 涡 
前 需要 多 次 流 片 验证 。 

次 使 

本 不 是 主要 设计 障碍 下 


全 定制 设计 方法 上 


人 


3 Application-specific integrated circuit， 
4 Electronic Design Automatic，EDA 


时 序 分 析 工 


于 设计 成 本 高 、 
的 部 分 ， 如 库 单元 。(2) 性 能 或 面积 
b 方 ， 如 高 性 能 微 处 理 器 ， 


的 一 个 经 典 例子 是 90 年 代 ， 
0.35p 的 工艺 达到 了 600MHz， 可 以 说 是 当时 微 处 理 器 设计 的 最 高 水 平 。 图 


E 和 时 序 验 证 。 


于 缺少 静 


Ly 


,通常 采用 HSPICE 仿真 进行 验 订 
1 试 向 量 很 难 履 盖 到 所 有 情况 ， 难 


给 


次 性 


测试 向 量 ， 观 
FE 确 ， 因此 


以 保证 
验证 困难 ， 


前 全 定制 的 方法 多 用 在 : 


(1) 可 以 多 


为 主导 因素 的 部 分 ， 妇 


上 RAM 等 宏章 


元 。(3) 成 


由 于 其 销售 量 大 设计 成 本 
期 美 
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处 理 器 全 定制 的 基本 流程 沾 。RTL 的 行为 级 


门 级 网 表 作 为 原理 图 等 价 性 检查 参考 对 象 , 同时 也 作为 仿真 


手工 版 图 。 一 方面 对 行为 级 RTL 进行 改造 ， 


述 作 为 设计 的 输入 。 设 计 包 含 三 个 了 


E 要 部 分 : 


FE 成 门 级 网 表 。 


同时 也 用 于 正确 性 检查 。 正确 性 检查 分 三 个 部 分 : 


述 进行 手工 原理 图 设计 , 生成 原理 图 网 表 。 原理 图 网 表 用 于 版 图 


表 间 等 价 性 检查 ; 另 一 部 分 是 电路 时 序 检查 ， 
序 检查 和 分 析 ; 除 此 之 外 ， 还 要 对 原理 图 网 表 


合 的 网 表 做 等 价 性 检查 。 除 了 门 级 网 表 和 原理 


部 分 是 | 
原理 图 网 表 及 版 区 
进行 逻辑 级 抽取 ， 提 取出 的 逻辑 网 表 和 门 级 综 
图 设计 之 外 的 另 一 个 重要 - 
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较 的 输入 。 另 一 方面 对 行为 级 
里 规划 参考 ， 
于 提取 的 网 
E 参 数 一 起 进行 时 


设计 相关 


工作 : 先进 行 物理 版 图 规划 ， 规 划 结 合 RTL 行为 级 描述 、 


迭代 进行 ;在 原理 


图 设计 完成 之 后 进行 版 图 设计 ; 针对 版 图 设计 的 结果 抽取 寄 人 


设计 流程 可 以 看 出 ， 正 确 性 验证 检查 工作 占 了 很 大 比例 。 


2.1.2 ASIC 的 设计 方法 


ASIC 的 本 意 是 专用 集成 电路 。 由 于 
其 设计 方法 基本 上 都 采用 基于 标准 单元 
的 设计 方法 , 因此 常用 于 特 指 基 于 标准 单 
元 的 电路 设计 方法 。 下 图 是 一 个 典型 的 
ASIC 设计 流程 图 。 在 ASIC 设计 中 基本 
输入 是 RIL 文件 、 单 元 库 文件 及 设计 约 
束 ， 由 工艺 厂商 和 结构 设计 人 员 提 供 。 根 
据 这 些 文件 进行 综合 ， 把 RIL 转换 成 门 
级 网 表 。 然 后 进行 布局 布线 ， 生 成 最 终 网 
表 及 数据 库 文 件 。 由 于 时 序 、 面 积 等 问题 ， 
综合 、 布 局 、 布 线 可 能 要 进行 多 次 迭代 。 
网 表 和 RIL 间 的 一 致 性 由 等 价 性 验证 来 
保证 。 由 寄生 参数 和 网 表 文 件 联合 进行 时 
序 分 析 。 时序 分 析 的 结果 反馈 到 布局 布线 
阶段 进行 修复 。 在 版 图 对 原理 图 检查 / 设 
计 规 则 检查 全 部 通过 后 生成 GDSII 
(Geometry Data Standard II) 文件 。 


标准 单元 是 具有 相同 高 度 的 各 种 驱 
动 和 扇 出 的 门 级 逻辑 器 件 的 统称 , 通常 由 
工艺 厂商 提供 。ASIC 方法 主要 流程 都 是 


由 工具 自动 完成 , 对 人 员 要 求 不 那么 高 , 设计 速度 也 快 得 多 。 


图 2.ASIC 基本 流程 攻 


的 设计 方法 成 本 要 少 得 多 。 而 且 近 年 来 由 于 电子 设 i 
质量 快速 提升 。 采 用 ASIC 方法 设计 的 高 性 能 


定制 方法 ，ASIC 方法 的 另外 一 个 优点 是 正 丰 


填 自动 化 工 
EF。 相 比 于 全 


日 于 时 序 检查 。 从 整个 


剖 方 法 ，ASIC 
(的 不 断 进步 ，ASIC 的 设计 
电路 工作 频率 也 达到 了 1GHz 以 J 
性 更 容易 保 说 
和 时 序 正 确 性 。 一 方面 不 断 完善 的 等 价 性 检查 工具 大 大 增 力 
便 了 设计 中 的 增 量 式 修改 (Engineering Change Order， 简 称 ECO); 男 一 方面 不 断 增 3 


角 性 


心 ， 同 时 也 方 
的 静 


态 时 序 分 析 工 具 在 对 设计 进行 全 面 时 序 检查 同时 , 也 在 不 断 加 入 了 新 的 方法 以 适应 纳米 级 设 
计 需 求 。ASIC 设计 方法 处 理 大 规模 、 复 杂 设 计 也 比较 容易 ， 层 次 化 方法 、IP 设计 方法 、 多 
角 多 模 (MCMM，Multi-Corner Multi-Mode) 的 方法 大 大 方 


5 Register Transfer Level， 寄 存 器 转换 层 ， 硬 件 描述 语言 的 一 个 描述 层 ; 


更 了 对 大 规模 设计 的 处 理 。 
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ASIC 方法 尽管 得 到 了 广泛 的 应 


和 最 终 实 现 结果 往往 相差 较 大 。 这 


计 ， 在 连 线 延 迟 占 主 导 因 


计 者 的 控制 能 力 很 弱 。 
变 


2.2 统计 时 序 分 析 


随 着 晶体 管 尺寸 逐步 缩小 到 纳米 级 , 高 怕 
来 越 敏 感 。 为 分 析 工 艺 波 动 对 延迟 的 影响 ,传统 的 基于 胡 


入 一 


工艺 角 " 及 时 间 缩 减 因 
得 越 来 越 复 杂 和 过 于 保守 。 


早期 很 难 ; 准 


设计 被 标准 
些 简单 的 过 程 选项 ， 新 的 意图 


因此 根据 了 
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]， 但 也 绝 非 完美 。 首 先 ， 设 计 前 
是 由 于 设计 前 期 连 线 延迟 、 时 钟 分 布 


素 的 情况 下 更 是 如 此 。 
期 布线 完成 后 才能 知道 ， 这 就 使 得 设计 


同时 ， 串 扰 效 应 对 时 序 的 影响 只 有 到 设计 后 
估计 芯片 时 序 。 另 外 ，ASIC 流程 中 设 


2.2.1 基于 路 径 (Path-based) 的 统计 时 序 分 析 方 法 
基于 路 径 的 统计 时 序 分 析 方 法 是 针对 一 些 挑选 出 来 的 时 序 路 径 进行 统计 时 序 分 析 。 这 些 


路 径 有 可 能 成 为 关键 路 径 ,对 电路 的 延迟 有 决 定性 的 影响 。 基 了 


计 这 些 挑选 出 路 径 的 延迟 分 
布 。 首 先 对 每 一 条 路 径 进行 
分 析 计算 。 文 献 [H] 给 出 了 单 
个 路 径 统计 分 布 的 计算 公 
式 。 该 公式 假定 整 条 路 径 延 
迟 是 每 一 个 工艺 参数 的 一 阶 
函数 ， 而 每 一 个 工艺 参数 都 
符合 标准 的 正 态 分 布 ， 对 一 
系列 关键 路 径 进行 计算 ， 可 
以 得 到 统计 延迟 概率 分 布 ， 
如 图 3 所 示 。 图 中 N。 表示 
关键 路 径 的 数量 。 可 以 看 出 ， 
随 着 关键 路 径 数量 的 增加 ， 
延迟 分 布 越 来 越 集中 并 偏向 
延迟 增 大 的 方向 。 这 一 方面 
表明 满足 设计 时 序 要 求 的 可 
能 性 随 着 


关键 路 径 数 量 增多 而 降低 。 另 一 方面 
键 路 径 数 量 的 增多 降低 了 设计 对 工艺 在 片 波动 的 敏感 度 。 当 关键 路 径 数量 增加 到 
时 ， 蕊 片 几乎 必然 只 能 工作 在 低频 率 。 


一 D2D 

一 WID: Ncp=1 

— WID: Ncp=2 

— WID: Ncp=10 

—— WID: Ncp=100 
— WID: Ncp=1000 
= WID: Ncp=10000 


0.9 


元 和 电子 设计 自动 化 工 


7 


夺 


期 的 时 序 、 面 积 估 计 


情况 很 难 有 准确 的 佑 


~ 


封闭 起来, 设计 者 通常 只 能 改 
和 方法 往往 不 容易 实现 ， 从 而 影响 设计 性 能 的 提高 。 


FE 能 集成 电路 中 晶体 管 的 性 能 对 在 片 波 动 变 得 越 
性 的 静态 时 序 分 析 工 具 采 用 了 多 
子 (timing derating) 等 方法 。 但 这 些 方法 往往 不 够 准确 ， 使 设计 变 
[ 艺 参数 波动 的 规律 ， 人 们 提出 了 统计 时 序 分 析 方 法 。 


-路径 的 分 析 方 法 的 目的 是 估 


1.0 1.1 


归 一 化 最 大 关键 路 径 时 延 


图 3. 关 键 路 径 数 量 对 延迟 分 布 的 影响 


， 随 着 关键 路 径 数量 增加 延迟 分 布 更 加 集中 。 这 说 明 关 


定 程度 


基于 路 径 的 方法 每 次 分 析 一 条 关键 路 径 ， 而 这 些 关 键 路 径 数量 可 能 很 多 。 特 别 是 对 于 那 


些 流 水 级 间 路 径 比 较 平衡 的 设计 


上 时/ 
， 永 2 


均值 比较 小 的 路 径 有 可 能 


2.2.2 基于 块 (Block-based) 的 统计 时 序 分 析 方 法 


5 Process Corner， 在 集成 电路 制作 工艺 中 | 


以 表示 能 保证 其 
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响 最 终 延迟 分 布 的 关键 路 径 非 常 多 , 使 得 分 析 非 常 困难 。 
另外 一 个 问题 是 如 何 选取 这 些 关 键 路 径 , : 不 能 只 根据 延迟 均值 大 小 来 选择 ， 因 
有 大 的 方差 而 成 为 影响 最 终 延 迟 分 布 的 关键 路 径 。 


为 那些 延迟 


间 正 常 工作 的 工艺 参数 误差 的 极限 
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信息 技术 快报 


Information Technology Letter 


基于 块 的 统计 时 序 分析 方 法 对 整个 时 序 路 径 图 


进行 拓扑 遍历 ,这 一 点 和 传统 的 攻 
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态 时 序 


方法 非常 类 似 。 对 每 一 个 时 序 节点 进行 分 析 ， 计 算出 其 延迟 分 布 。 对 每 一 个 节点 的 到 达 时 间 


间 上 的 优势 ， 目 前 许多 研究 集中 在 这 一 方法 上 。 
种 方法 得 到 的 延迟 分 布 也 越 来 越 宽 ， 计 算 量 也 就 越 大 。 要 在 精度 和 计算 量 间 取 得 


看 有 两 个 基本 的 操作 : 加 法 与 求 最 大 值 。 
。 对 于 多 扇 入 的 器 件 ， 计 算 其 后 延迟 分 布 就 是 对 所 有 时 延 路 径 求 到 达 时 间 最 大 值 。 求 
并 不 复杂 ， 而 求 最 大 值 的 操作 则 相对 复杂 。 对 于 
布 ( 上 升 和 下 降 到 达 时 间 )。 基 于 块 的 方法 的 


每 


个 匠 点 的 延迟 都 等 于 划 


前 面 延迟 加 上 本 喘 器 


每 


计算 量 和 设计 规模 是 线 ' 


个 三 点 5 


生 关 系 。 由 


种 到 达 时 间 分 
于 其 在 计算 时 


人 已- 二 
4 可 能 有 两 


直 得 注意 的 是 随 着 


路 逻辑 深度 的 增加 ， 这 
平衡 ， 可 以 


考虑 对 于 宽 的 延迟 分 布 进行 压缩 。 文 献 [5] 讨论 了 压缩 对 精度 及 计算 量 的 影响 。 通 过 加 法 及 


最 大 值 的 操作 ， 整 个 
2.2.3 空间 相关 的 统计 时 序 分 析 方 法 


前 面 的 基于 路 径 或 基于 块 的 方法 都 是 假定 工 


艺 参 数 变化 是 独立 随机 变化 。 而 参数 波动 还 有 另外 


种 形式 : 空间 相关 的 波动 。 物 
波动 比较 接近 ， 殿 


里 位 置 相近 的 器 件 ， 
分 布 符合 一 定 的 规律 。 同 样 的 ， 


空间 相关 的 统计 分 析 方 法 也 分 两 步 : 对 延迟 建 模 和 


延迟 的 统计 计算 。 要 准确 地 


述 两 个 相近 器 件 空 间 
相关 参数 变化 ， 需 要 对 这 两 个 器 件 单独 建 模 ， 


和 仁 一 
每 


个 都 认为 是 单独 的 随机 变量 。 它们 的 相关 性 随 着 两 


者 之 间 的 距离 增加 逐渐 变 小 。 文 献 [2] 则 提出 了 四 又 
树 模 型 。 这 些 方法 利用 少量 的 独立 随机 变量 来 描述 


芯片 级 的 空间 相关 性 。 
方法 。 如 图 4 所 示 ， 


下 面 以 四 又 树 模 型 说 明 这 一 
用 四 又 树 的 方法 对 芯片 进行 多 


EE 路 各 节点 的 延迟 都 可 以 被 计算 出 来 。 


次 切 分 ， 使 其 分 成 多 个 小 区 域 。 每 一 级 区 域 的 数量 


都 是 前 一 级 数量 的 四 倍 。 每 一 级 的 小 区 域 都 被 赋予 
一 个 独立 的 随机 变量 。 最 底层 区 域 器 件 的 参数 波动 是 前 面 所 有 各 级 独立 随机 变量 的 和 ， 器件 


间 空 间 相 关 性 1 
越 强 。 


2.2.4 工业 界 统 计时 序 分 析 方 法 


以 上 是 学 术 界 统计 时 序 的 分 析 方 法 
研究 现状 。 在 工业 界 ， 主 要 的 电子 设计 
自动 化 工具 厂商 都 提出 统计 时 序 分 析 的 
解决 方案 。 考 虑 到 可 实现 性 ， 采 取 了 很 
多 简化 。 下 面 以 SYNOPSYS 的 
PrimeTime 为 例 简 述 工 业界 的 分 析 方 
法 四。 首先 建立 门 延迟 对 参数 变化 的 关 
系 ， 然 后 分 析 整 条 路 径 的 延迟 分 布 。 延 
述 对 工艺 参数 变化 的 关系 见 图 5。 图 中 描 
述 了 门 延迟 D 对 工艺 参数 Q 的 依赖 关系 。 
这 种 依赖 关系 可 以 近似 地 用 两 段 线性 函 
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自动 化 软件 供应 商 ， 中 文 名 称 为 “ 


图 4. 利 用 四 又 树 切 分 的 空间 相关 模型 


共有 的 随机 变量 体现 。 距离 越 近 的 器 件 有 越 多 的 公 


门 时 延 D=f(Q@) 


D 的 典型 值 | 


思科 技 ” 


一 DD 的 分 布 


随机 变量 , 相关 性 也 就 


/1 的 分 布 


低 值 典型 值 高 值 


图 5. 延 迟 对 工艺 参数 的 函数 


高 性 能 微 处 理 器 物理 设计 方法 研究 


数 表示 ， 以 典型 值 (参数 变化 为 0 点 ) 为 基础 ， 左 右 各 找 一 个 点 ， 用 HSPICE 计算 出 相应 的 
延迟 值 。 对 于 那些 和 门 延迟 有 很 高 线性 度 的 工艺 参数 ， 可 以 用 一 个 点 〈 单 段 线性 ) 描述 延迟 
函数 。 对 于 多 个 参数 的 延迟 统计 分 析 ， 则 需要 多 个 点 分 别 表 述 门 延 迟 对 相应 参数 的 函数 。 假 
设 总 共有 N 个 工艺 参数 需要 考虑 ， 门 延迟 函数 建立 总 共 需 要 2N+1 次 计算 。 由 于 各 参数 间 彼 
此 独立 , 它们 的 影响 可 以 直接 付 加 。 可 以 看 出 , 这 种 方法 所 需 的 计算 量 非常 小 , 但 精度 不 高 ， 
特别 是 对 于 非 线性 的 延迟 函数 更 是 如 此 。 对 于 近似 线性 的 函数 , 点 的 取 值 也 非常 关键 ， 需 要 
在 线性 好 的 部 分 取 点 。 在 计算 整 条 路 径 延 迟 分 布 时 , 采用 连续 取 点 的 办 法 ,利用 线性 插值 法 
计算 对 应 的 门 延迟 。 另 外 一 个 重要 的 问题 是 相关 性 的 处 理 , 在 PrimeTime 中 可 以 对 工艺 波动 
设置 不 同 相 关 性 。 有 三 类 不 同 的 相关 性 : 自动 相关 〈atuo-correlation)、 交 叉 相 关 (cross- 
correlation)、 空 间 相 关 〈spatial-correlation )。 自 动 相关 是 指 同 一 种 工艺 参数 对 不 同 器 件 的 影 
响 ， 比 如 : 沟 道 长 度 在 不 同 芯片 间 有 波动 , 在 同一 芯片 的 不 同 嚣 件 上 也 有 波动 ， 用 这 类 相关 
性 系数 来 表征 两 种 波动 的 相对 大 小 : 最 高 值 为 1.0， 意 思 是 全 相关 ; 最 小 值 为 0， 意 思 是 完 
全 独立 无 关 , 用 于 描述 片 内 工艺 参数 随机 变化 的 情况 。 交 又 相关 是 指 同一 门 单元 上 不 同 的 工 
艺 波动 参数 间 有 相关 性 , 用 于 描述 工艺 参数 间 的 相关 情况 。 空间 相 关 是 指 蕊 片上 两 个 器 件 间 
的 相关 度 是 距离 的 函数 ， 用 于 描述 器 件 间 的 空间 相关 ， 器件 间距 离 越 近 相关 度 越 大 ， 距 离 为 
0 时 相关 值 为 1.0， 即 全 相关 ， 随 着 距离 的 增加 ， 相 关 度 趋 于 0。 


3 ” 低 功 耗 设计 方法 学 


当前 高 性 能 处 理 器 集成 了 数 十 亿 个 晶体 管 ， 导 致 了 芯片 功 耗 消耗 及 功 耗 密度 大 幅 增 加 ， 
使 得 设计 开始 受 限 于 封装 及 其 散热 的 能 力 。 在 纳米 工艺 下 ， 漏 电 功 耗 迅速 增加 ， 已 经 接近 或 
国 过 动态 功 耗 。 为 解决 功 耗 问 题 ， 物 理 设 计 中 正在 研究 并 采用 一 系列 低 功 耗 方法 。 


3.1 低 功 耗 设计 方法 学 


系统 “结构 设计 :封装 散热 % 多 核 ” 短 
流水 以 提高 性 能 同时 控制 频率 ， 各 神 候 
功 耗 模式 的 系统 级 控制 


逻辑 设计 ， 控制 器 件 的 无 效 翻 
转 、 功 新 管理 模块 识别 电 尖 


3.1.1 系统 级 低 功 耗 设计 


如 图 6 所 示 ， 今 天 的 低 功 耗 设 计 
已 经 成 为 从 结构 、 导 辑 设计 到 物理 设 
计 、 工 艺 制程 互相 融合 的 系统 级 工程 。 
低 功 耗 控 制 体现 在 芯片 设计 的 各 阶 
段 。 在 系统 、 结 构 设计 时 就 要 考虑 封 
装 散 热 限制 ;在 结构 设计 时 采用 增加 
并 行 度 、 短 流水 以 降低 处 理 器 工作 频 
率 ， 同 时 提高 芯片 性 能 ， 在 系统 级 就 
要 考虑 各 种 低 功 耗 状 态 ， 如 目前 常用 
高 级 电源 管理 (ACPD， 在 逻辑 设计 时 
就 要 考虑 控制 无 效 翻转 以 降低 动态 功 
耗 ， 同 时 引入 功 耗 管理 单元 CPMU ) 
进行 各 种 低 功 耗 控制 ， 如 控制 门 探 电 
源 网 络 各 信号 开启 、 关 闭 顺序 等 等 ; 
在 物理 设计 阶段 要 进行 各 种 低 功 耗 方 
法 的 实现 ， 如 利用 多 阔 值 电压 单元 、 图 6. 系 统 级 低 功 耗 设 计 
有 源 门 控 等 以 降低 漏电 功 耗 ， 利 用 门 控 时 钟 、 多 电压 域 、 动 态 电压 调节 等 以 降低 动态 功 耗 ; 


物理 设计 : i 多 
阅 值 电压 、 多 电压 、 电 源 
门 控 、 动 态 频 率 电压 调整 


王 艺 : 栅 氧 减 落 、 淘 道 长 度 缩短 、 逆 1 
电 庄 降低 二 成 少 亚 艺 在 其 波 动 寺 EP/GP 
工艺 ,，SOI; HK 
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在 工艺 方面 采 
同时 提高 性 能 
外 ， 又 增加 了 一 个 电源 管 


3.1.2 常用 低 功 耗 技术 


动态 功 耗 是 由 信号 翻转 产生 的 。 在 信号 翻转 过 程 


LPS/GP? 混 合 工艺 以 降低 漏 ! 
。 低 功 耗 的 设计 方法 使 得 系统 级 和 物理 


信 ， 


息 技术 快报 


Information Technology Letter 


BE 功 耗 、 采 月 


省 理 文件 (如 UPF™) 作为 系统 和 物理 


FP, 晶体管 对 自身 及 所 带 负 载 
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昌 SOI、HKD 工 艺 方法 以 降低 漏电 
级 结合 更 加 紧密 。 在 RIL 和 SDC 之 
设计 的 纽带 。 


有 容 充 放 


电 。 对 CMOS 电路 来 说 ， 在 信号 翻转 有 瞬间，PMOS 和 NOMS 同时 打开 ， 产 生 的 短路 功 耗 也 
是 动态 功 耗 的 重要 组 成 部 分 。 动 态 功 耗 有 四 个 主要 影响 因素 : 供电 电压 、 频 率 、 翻 转 率 、 负 
载 电容 。 降 低 动态 功 耗 的 方法 在 本 质 上 就 是 要 降低 供电 电压 、 降 低 时 钟 频 率 、 减 少 器 件 无 效 
翻转 及 降低 负载 电容 。 静 态 功 耗 是 信号 不 翻转 时 产生 的 功 耗 ， 由 源 漏 间 、 栅 和 衬 底 间 等 漏电 
流 组 成 。 影 响 静 态 功 耗 的 主要 因素 有 : 温度 、 阔 值 电压 等 。 


(DD)， 时钟 门 控 


vy 


尽管 时 钟 树 上 所 


的 组 


消耗 的 功 耗 通常 占 到 总 功 耗 的 一 半 以 上 。 这 
上 控制 时 钟 信号 的 翻转 是 降低 动态 功 耗 的 最 有 效 的 办 法 ,也 是 目前 最 广 
个 几乎 完全 相同 的 设计 : 一 个 采用 门 控 时 钟 ， 另 一 个 没有 
表明 门 控 时 钟 设计 节省 了 40% 的 总 功 耗 ， 主 要 是 由 于 60% 以 上 时 钟 器 
控 少 于 三 位 的 触发 器 组 是 没有 意义 的 ,上 二 


辑 的 二 十 倍 以 上 。 因 二 
泛 采 用 的 方法 。 文 献 [ 


v7 


采用 门 控 时 钟 。 结 
件 被 门 控 。 男 外 其 研究 也 表明 , 门 
(2). 门 级 功 耗 优化 


在 门 级 实现 时 ,可 针对 翻转 率 情况 改变 逻辑 结构 ， 达 至 


6] 比 较 了 两 


言 号 线 ， 在 使 用 时 尽 可 能 放 在 逻辑 后 


转 率 和 负载 。 这 种 方法 实现 时 有 


定 困 难 ， 


方法 包括 改变 门 单元 大 小 、 插 组 
因为 会 导致 延迟 和 输 晶 


不 是 越 小 越 好 ， 
(3). 多 电压 域 
动态 功 耗 和 供电 电压 的 


已 


上 , 随 着 工艺 的 按 比 全 
而 不 断 降低 。 对 芯片 内 
有 效 方法 。 运 行 速度 要 求 高 


i 


平方 成 正比 ， 


如 PCI 模块 等 采用 低 


电压 供 


杂 。 


(4). 多 国 值 


EE 压 


纳米 工艺 下 , 多 闵 值 风 辑 已 经 成 为 降低 漏 1 


因此 降低 供 
缩小 ,供电 电压 在 不 断 下 降 。 单 个 晶体 管 
运行 在 不 同 频率 的 模块 分 别 采用 不 同 
的 部 分 ， 如 处 理 器 核 ， 使 用 高 ! 


它们 所 


器 及 其 所 带 的 触发 器 通常 具 占 全 部 单元 的 一 小 部 分 , 但 
这 是 因为 时 钟 信号 每 周 


I 降低 功 耗 的 
期 使 用 ， 而 且 使 用 时 尽 可 能 减轻 负载 ， 以 降低 整体 的 翻 
主要 是 翻转 率 并 不 容易 有 
:器 等 。 小 的 器 件 本 身 消耗 功 耗 少 ， 
斜率 增加 ， 从 而 增加 下 一 级 逻辑 的 功 耗 。 


明 翻 转 两 次 ,是 一 般 组 合 迪 


至 还 会 增加 功 耗 。 


的 。 如 高 翻转 率 的 


定 。 其 他 的 一 些 有 效 的 
可 以 降低 功 耗 。 但 也 并 


已 


电压 是 


降 


氏 功 耗 的 最 有 效 方法 。 实 际 


的 动态 功 耗 随 特征 尺寸 缩小 


的 供 


外 电压 也 是 一 个 降低 功 耗 的 


是 指数 关系 ， 而 闵 值 


3 Low Power， 低 功 耗 
9 General Purpose， 通 用 


10 Silicon-on-insulator， 绝 缘 体 上 硅 


11 
高 介 


尼 系 数 


1 Synopsys Design Constraints， 时 序 约束 
3 Unified Power Format, 统一 功率 管理 格式 


14 Peripheral Component Interconnect， 互 连 外 转 


设备 
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电 功 耗 的 党 


] 方 法。 器件 漏 
电压 对 延迟 的 影响 相对 要 小 一 些 。 对 于 90 纳米 以 下 工艺 ，20% 的 延迟 


EE 压 域 ， 运 行 速度 要 求 低 的 部 分 ， 
EE。 多 电压 域 的 主要 的 问题 是 供电 网 络 及 跨 电 源 间 迪 辑 设 计 复 


E 功 耗 和 阔 值 电压 


性 能 微 处 理 器 物理 设计 方法 研究 


型 


损失 ， 可 以 降低 80% 的 漏电 功 耗 外 。 目 前 ， 纳 米 工艺 中 都 会 提供 三 种 不 同 阔 值 类 型 的 单元 。 


电子 设计 自动 化 工具 可 以 根据 时 序 、 功 耗 ' 


青 况 自动 选择 合适 器 件 。 可 以 在 不 影响 时 序 的 情况 


一 


下 ， 通 过 不 同 阔 值 单元 的 蔡 换 来 降低 漏电 功 耗 。 


(5). 电源 门 控 


EE 源 门 控 是 一 项 复杂 的 降低 漏电 功 耗 的 方法 。 在 芯片 工作 时 , 通过 有 选择 地 关 掉 不 用 的 


模块 来 降低 漏电 功 耗 。 当 被 门 控 模块 的 电源 关 掉 时 ， 其 输出 信号 变 为 不 定 态 ， 到 完全 关 掉 的 
状态 可 能 要 很 长 时 间 , 从 而 引起 和 其 相关 的 常 开 电 源 域 的 短路 功 耗 大 大 增加 。 为 解决 这 一 问 
题 ， 通 常 在 电源 门 控 模 块 和 电源 常 开 模块 间 使 用 隔离 单元 〈isolation cell) 进行 隔离 。 另 外 ， 


对 门 控 部 分 , 需要 解决 的 一 个 问题 是 信号 保持 。 电 源 关闭 时 希望 保留 一 些 状态 以 供 开 启 时 使 


用 。 这 通常 采用 保持 触发 器 (retention register) 实现 。 电 源 门 探 部 分 的 逻辑 设计 和 验证 也 是 


一 个 难点 。 


(6). 动态 电压 频 3 


动态 频率 调整 是 根据 工作 负载 情况 ,芯片 可 以 自动 地 降低 工作 频率 以 降低 功 耗 。 由 于 频 
率 和 动态 功 耗 的 线性 关系 ,这 种 方法 对 降低 动态 功 耗 非常 有 效 。 动 态 电压 调整 则 是 一 项 复杂 
的 低 功 耗 方法 。 它 是 根据 芯片 工作 负载 情况 自动 地 降低 供电 电压 ， 达 到 降低 功 耗 的 目的 。! 
于 动态 功 耗 和 电压 的 平方 成 正比 , 降低 电压 的 节能 效果 非常 明显 。 动态 电压 调整 的 缺点 是 电 


名 调整 


源 网 络 设计 复杂 ， 同 时 启动 关闭 的 控制 很 有 难度 。 


(7). 和 衬 底 偏 压 调 


节 


衬 底 电压 对 晶体 管 闷 值 电压 有 直接 的 有 影响。 通常 所 说 的 闵 值 电压 是 指 裤 底 电压 为 零 时 
(zero body biasing〉 的 值 。 当 衬 底 电 压 正 偏 〈forward body biasing) 时 ， 阔 值 电压 会 降低 。 


反之 ， 当 衬 底 电压 反 偏 (reverse body biasing〉 时 ， 阔 值 电压 增高 ， 从 而 导致 漏电 功 耗 下 降 。 
3.1.3 各 种 低 功 耗 设计 方法 的 比较 


各 种 低 功 耗 方法 在 降低 漏电 功 耗 、 动 态 功 耗 效 果 上 各 有 不 同 ,在 对 于 时 序 、 面 积 的 影响 


以 及 实现 难度 、 


验证 难度 、 仿 真 难度 上 差别 也 很 大 。 下 表 比 较 了 各 种 降低 功 耗 方法 号。 逻辑 


优化 、 多 阔 值 电压 和 时 钟 门 控 ， 这 三 种 方法 是 比较 基本 的 ， 现 代 集 成 电路 中 常用 。 它 们 的 效 


果 还 是 比较 明显 


动态 电压 频率 调整 、 衬 底 偏 压 调节 是 相对 高 级 的 低 功 耗 方法 。 功 耗 降低 明显 ,但 设计 、 验 证 


难度 也 大 。 


表 1. 各 种 低 功 耗 方法 比较 


低 功 耗 技术 
逻辑 优化 
多 阔 值 电压 
时 钟 门 控 
多 电压 域 
电源 门 控 
动态 电压 
频率 调整 
衬 底 俩 压 调节 


的 ， 特 别 是 多 阔 值 电压 和 时 钟 门 控 。 另 外 几 种 方法 : 多 电压 域 、 电 源 门 控 、 


漏电 功 耗 动态 功 耗 时 序 代价 ”面积 代价 ”实现 难度 验证 难度 仿真 难度 

1.1x 10% 0% -10% 无 龙 大 

6x 0% 0% 2% 低 氏 学 

Ox 20% 0% -10~2% 低 氏 无 

2x 40~50% 0% <10% ! 中 低 
10-50x ~0% 4-8% 5~15% 中 高 高 高 
2-3x 40-70% 0% <10% 高 高 高 
10x 10% <10% 高 高 低 


3.2 高 性 能 微 处 理 器 低 功 耗 设计 实例 
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EE 
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E 微 处 理 器 中 ，IBM 公司 的 Power 系列 处 理 器 是 很 好 的 范例 。 


一 


性 和 
县 上 


性 能 是 


已 
要 


面 都 做 了 很 多 考虑 。 


方案 。 


3.2.1 IBM 的 SOI 工艺 


IBM 工艺 上 最 值得 称道 的 是 SOI 技术 , 早 


在 上 世纪 90 年 代 末 STAR 系列 处 理 器 就 已 采用 


了 SOI 工艺 。 
POWER4 处 理 器 采 


工作 频率 1.3 


SOI 工艺 最 初 的 目 
性 能 的 方法 之 一 是 降低 结 电容 。 图 
工艺 如 何 降低 了 扩散 


SOI 工艺 去 掉 了 绝 大 部 分 结 


随 着 工艺 特征 尺寸 的 不 断 缩 小 ，Gi 正成 为 主要 的 | 


在 2000 年 左右 ， 面 向 服务 器 的 
了 0.18 微米 的 SOI 工艺 ， 


GHz 。 


的 是 提高 性 能 ， 而 提高 


7 显示 了 SOI 


2 


已 


R 报 


的 设计 指标 。Power7 的 8 核 和 4GHz 主 频 体现 了 这 一 点 。 
求 性 能 就 不 考虑 功 耗 、 成 品 率 指 标 ， 恰 恰 相 反 Power7 在 设计 中 对 功 耗 、 面 积 、 
单 从 功 耗 控制 角度 看 ，Power7 从 了 


Vol.10 No.2 
Mar. 2012 
高 性 能 处 理 器 的 
[ 艺 、 电 路 到 系统 都 有 一 整套 完整 的 


电容， 我 们 知道 结 


理 


SOI 工 艺 可 去 
掉 这 些 电 容 


图 7.MOS 


EE 容 由 两 部 分 组 成 : 


Caiff = Cbotom + Csw = Cj x Area + Cysw x Perimeter 


其 : 


: Area 为 结 面 积 ，Perimeter 为 结 周 长 。 


日 


ba 


已 合 。 这 契 


| 于 在 器 件 


形 按 比例 缩小 


时 ， 为 了 克服 短 沟 道 效应 ， 沟 道 掺 杂 浓 度 必须 增加 ， 基 本 上 每 一 代 是 上 一 代 的 1.6 倍 ， 而 每 


一 代 


缩 尺 导致 器 件 面积 减少 到 原来 的 0.7 倍 ， 二 者 本 


比例 乡 小 融 不 能 使 


问题 。 


SOI 性 能 提高 


的 另外 原因 是 阔 值 电压 降低 。 


由 于 衬 底 在 ! 


电气 上 是 浮 空 的 ，SOI 器 件 的 衬 底 偏 


压 都 大 于 0， 


并 且 由 于 电气 浮 空 ， 衬 底 偏 压 是 不 


四 Ar 


E 闵 值 电压 也 是 不 稳定 的 。 为 了 解决 


这 一 问题 ， 


有 


最 简 
件 。 所 谓 全 耗 尽 
使 它 能 够 小 了 
BE 子 ， 衬 底 偏 压 不 会 引起 1 


单 的 办 法 是 采用 全 耗 尽 的 SOI 器 
SOI 就 是 让 SOI 器 件 层 足 够 注 ， 
牛 的 沟 道 耗 尽 区 宽度 。 耗 尽 区 没 
电子 流向 源 级 ， 因 此 


me 


六 囊 


了 


对 器 件 阔 值 ， 


电压 没有 影响 。 然 而 全 耗 尽 的 最 大 问 


题 是 器 件 层 制造 困难 ， 


内 为 这 要 求 完美 的 单 晶 


人 硅 。 实 际 上 IBM 的 SOI 工艺 采用 的 是 部 分 耗 尽 
工艺 ， 这 也 利于 控制 短 沟 道 效应 。 除 此 之 外 ， 采 


用 部 分 耗 尽 工艺 通过 控制 器 件 层 的 厚度 可 以 制 
造 出 各 种 闹 值 电压 
全 耗 尽 工艺 不 可 能 


的 器 件 ， 用 于 低 功 耗 设 计 ， 而 
改 出 高 阔 值 的 器 件 。 阔 值 电 压 


的 降低 会 导致 漏电 流 的 增加 ， 


电 控 制 点 通常 设 在 使 最 差 情 况 


的 漏电 和 体 硅 


(B 为 标准 单位 CSE，C 为 两 
因此 SOI 工艺 的 漏 ”pitch 的 两 位 CSEpitch 的 两 位 CSE) 


日 乘 ， 整 个 结 电容 基本 不 变 。 这 样 ， 按 
开关 速度 提高 ， 而 SOI 工艺 几乎 去 掉 了 所 有 的 结 电容 ， 从 而 解决 了 这 一 


区 在 非 脉冲 模式 工作 时 增加 的 功 耗 
国王 脉 冲模 式 下 的 功 耗 


C 


A<—B 


D> E 


时 延 基本 相同 ， 
通过 优化 布线 降 
低 功 耗 


改 用 低 阔 值 
器 件 (时 延 降 
低 了 ) 


改 用 高 阔 值 
器 件 (时 延 增 
加 了 ) 


图 8.POWER7 CSE 使 


位 CSE，D 为 半 个 


工艺 的 最 差 情况 (最 小 沟 道 长 度 ) 相同 ， 而 在 通常 情况 下 (标准 沟 道 长 度 ) SOI 和 体 硅 工 艺 


相 比 漏电 要 增 大 10 倍 世 


右 。 但 在 
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E 压 降低 的 时 候 ，SOI 工艺 的 漏电 降低 得 更 快 ， 在 低压 时 


高 性 能 微 处 理 器 物理 设计 方法 研究 
可 以 做 到 和 体 硅 工 艺 的 漏电 基本 差不多 。 


3.2.2 Power7 时 钟 存储 单元 的 低 功 耗 考虑 : 


在 Power7 中 共有 两 百 万 个 时 钟 存储 单元 ”， 其 设计 的 
两 级 的 主 从 锁 存 器 "组 成 0。 对 
去 掉 主 锁 存 器 。 为 了 降低 功 耗 ， 


劣 对 整个 电路 的 面积 、 


E 


人 已 
上 月 E、 


功 耗 以 及 可 靠 性 都 有 重要 的 影响 。 标 准 的 时 钟 存储 单元 是 1 
于 性 能 关键 路 径 , 采用 脉冲 锁 存 , 相当 于 标准 时 钟 存储 单元 ' 
大 多 数 时 钟 存储 单元 提供 了 几 种 不 同 的 闪 值 电压 器 件 ， 不 同 的 阔 值 电压 ， 漏 
时 还 提供 了 多 种 驱动 强度 单元 。 除 此 之 外 ,设计 了 标准 的 单位 时 钟 存储 单元 、 


单元 (Double-CSE， 两 位 存储 单元 公明 
(double-CSE/half-pitch )。 
D 延迟 基本 相同 ， 但 功 耗 有 大 约 15% 的 变化 。 类 型 A 为 低 阔 值 器 伯 


而 类 型 EE 相反。 


日 一 个 时 钟 反 相 


器 )、 两 位 半 矿 寸 


3.2.3 POWER7 休 眼 管理 


自 Power6 以 后 ，Power 系列 处 
能 力 ， 即 所 谓 的 能 量 调节 (EnergyScale)。 能 量 调 
降低 静态 功 耗 、 降 低 动 态 功 


理 


痢 有 有 


节 


了 温度 / 功 耗 测量 


等 方面 。 让 我 们 首先 看 一 下 Power7 的 休眠 管理 。 


包含 了 以 下 几 种 模式 : 
耗 和 性 能 最 优 模 式 。 这 种 i 


且 、 


各 种 低 


图 8 显示 了 这 三 利 


周 节 是 一 个 系统 工科 
功 耗 技术 、 系 统 级 控 尼 


里 器 具备 了 功 耗 管 


100% 
90% 


功 耗 不 同 。 同 
两 位 时 钟 存储 
时 钟 存储 单元 


类 型 触发 器 的 功 耗 比 较 ， 可 以 看 出 从 类 型 B 到 


， 功 耗 增 加 速度 提高 ， 


空闲 状态 下 的 平均 功 耗 


80% 


器 70% 


涵盖 
支持 


Ey 


60% 


于 


6 


50% 
40% 


30% 


Power7 有 两 种 主要 的 休眠 模式 : NAP (小 可) 和 ” zo% 
SLEEP 睡眠 ) 外。 它们 都 是 在 处 理 器 核 不 工作 的 状态 山 
下 进行 功 耗 管理 。NAP 状态 是 通过 时 钟 门 控 实现 的 。 国 空闲 状态 口 NAP 日 NAP( 频 率 为 fnm) 
此 状态 下 处 理 器 各 功能 部 件 的 时 钟 关 掉 ， 处 理 器 核 的 | 
时 钙 频 率 可 单独 降低 ， 而 缓存 和 DTLBI 保 持 状态 , 这 国 SEE (电话 为 vm 


样 唤醒 时 间 会 非常 短 。SLEEP 状态 是 通过 功率 门 控 ” 实 


现 的 。 此 时 处 到 


显示 了 不 同体 有 
耗 变 化 很 大 。 


3.2.4 Power7 的 动态 电压 与 频率 调节 技术 
动态 电压 与 频率 调节 
器 核 可 以 单独 
骨节 不 影响 核 外 部 


应 该 说 Power7 所 月 
技术 "是 非常 成 熟 的 。 每 个 处 型 
节 频 率 和 电压 。 处 型 


EE 器 核 关 掉 所 有 时 钟 ， 同 时 清 2 
缓存 ， 电 压 降 低 到 Vmin (待机 (retention) 
民 模 式 下 功 耗 的 比较 ， 可 以 看 出 Power7 的 体 上 


让 


全 


状态 )， 月 


民 管 理 非常 细致 ， 


图 9.Power7 的 休眠 管理 
日 以 保持 需要 的 待机 的 寄存 器 值 。 


名 


9 
不 同 模式 间 功 


利用 DVFS 得 到 的 功率 下 降 
(4 个 早期 样品 的 数据 ) 


| 


周 


核 的 电压 


分 运行 。 为 实现 这 一 点 ， 处 理 器 核 和 核 外 ! 
用 异步 结构 。 为 了 提高 动态 电压 与 频率 调节 效 


能 ， 使 得 处 
的 


FE 衡 ，Power7 对 缓存 部 分 


大 


路 采 


本 


100% 80% 60% 


1 


clocked storage elements, CSE 


16 Master-Slave Latch, MSL 


17 Dual Translation Lookaside Buffer， 两 


18 Power Gating， 亦 有 译作 “电源 闻 控 ” 
让 Dynamic Voltage and Frequency Scaling, DVFS 
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40% 


20% 09% 


到 Vmin 


器 运行 时 性 能 、 功 耗 可 以 取得 更 好 人 
独 供电 。 这 样 图 10. DVFS 效果 ,频率 60% 时 达 
导数 据 转 换 后 备 缓冲 器 
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Power7 提供 了 两 种 可 调 的 处 理 器 内 部 电 平 ， 处 理 器 核 逻 辑 部 分 和 缓存 部 分 。 组 存 部 分 的 较 
高 电压 可 以 使 处 理 器 运行 在 更 高 的 主 频 上 ， 而 低 电压 可 以 大 幅度 降低 漏电 。 图 10 显示 了 动 
态 电压 与 频率 调节 效果 ， 可 以 看 出 随 着 处 理 器 频率 和 电压 的 动态 调整 ， 处理 器 的 功 耗 有 近 
80% 的 变化 。 


4 ”结束 语 


高 性 能 微 处 理 器 的 集成 度 和 性 能 还 在 日 新 月 异 的 发 展 着 , 由 工艺 特征 尺寸 不 断 缩小 所 带 


来 的 纳米 级 的 各 种 效应 正成 为 越 来 越 严 重 的 挑战 。 这 其 中 功 耗 和 在 片 波动 的 影响 最 为 严重 。 


尽管 对 于 高 性 能 微 处 理 器 而 言 ， 性 能 仍然 是 最 重要 的 指标 ， 然 而 “现在 不 采用 任何 低 功 耗 措 


施 的 微 处 理 器 已 经 不 存在 了 ”。 事 实 上 ， 现 在 高 性 能 处 理 器 的 各 种 低 功 耗 措施 已 丝毫 不 亚 于 


移动 应 用 的 低 功 耗 处 理 器 。 我 们 看 到 趋势 是 一 一 平衡 与 融合 。 
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